智能论文笔记

Cautious Planning with Incremental Symbolic Perception: Designing Verified Reactive Driving Maneuvers

Disha Kamale , Sofie Haesaert , Cristian-Ioan Vasile

分类：机器人

2022-09-20

这项工作提出了利用对机器人周围环境的逐步改善的象征感知知识的一步，以证明适用于自动驾驶问题的正确反应性控制合成。结合了运动控制和信息收集的抽象模型，我们表明假设保证规范（线性时间逻辑的子类）可用于定义和解决谨慎计划的流量规则。我们提出了一种新颖的表示，称为符号改进树，以捕获有关环境的增量知识，并体现了各种符号感知输入之间的关系。利用增量知识来合成机器人的验证反应性计划。案例研究表明，即使在部分遮挡的环境中，拟议方法在合成控制输入方面的疗效。

translated by 谷歌翻译

Overcoming Exploration: Deep Reinforcement Learning in Complex Environments from Temporal Logic Specifications

Mingyu Cai , Erfan Aasi , Calin Belta , Cristian-Ioan Vasile

分类：机器人 | 机器学习

2022-01-28

勘探是基于深入强化学习（DRL）的无模型导航控制的基本挑战，因为针对目标驱动的导航任务的典型勘探技术依赖于噪声或贪婪的政策，这些策略对奖励的密度敏感。实际上，机器人总是在复杂的混乱环境中部署，其中包含密集的障碍和狭窄的通道，从而提高了很难探索训练的自然备用奖励。当预定义的任务复杂并且具有丰富的表现力时，这种问题变得更加严重。在本文中，我们专注于这两个方面，并为任务指导的机器人提供了一种深层的政策梯度算法，该机器人在复杂的混乱环境中部署了未知的动态系统。线性时间逻辑（LTL）用于表达丰富的机器人规范。为了克服训练期间探索的环境挑战，我们提出了一种新颖的路径计划引导奖励方案，该方案在状态空间上密集，并且至关重要的是，由于黑盒动力学而导致计算的几何路径的不可行性。为了促进LTL满意度，我们的方法将LTL任务分解为使用分布式DRL解决的子任务，在该子任务中，可以使用深层政策梯度算法并行培训子任务。我们的框架被证明可显着提高性能（有效性，效率）和对大规模复杂环境中复杂任务的机器人的探索。可以在YouTube频道上找到视频演示：https：//youtu.be/yqrq2-ymtik。

translated by 谷歌翻译

Safety-Critical Modular Deep Reinforcement Learning with Temporal Logic through Gaussian Processes and Control Barrier Functions

Mingyu Cai , Cristian-Ioan Vasile

分类：机器人 | 机器学习

2021-09-07

强化学习（RL）是一种有希望的方法，对现实世界的应用程序取得有限，因为确保安全探索或促进充分利用是控制具有未知模型和测量不确定性的机器人系统的挑战。这种学习问题对于连续空间（状态空间和动作空间）的复杂任务变得更加棘手。在本文中，我们提出了一种由几个方面组成的基于学习的控制框架：（1）线性时间逻辑（LTL）被利用，以便于可以通过无限视野的复杂任务转换为新颖的自动化结构; （2）我们为RL-Agent提出了一种创新的奖励计划，正式保证，使全球最佳政策最大化满足LTL规范的概率; （3）基于奖励塑造技术，我们开发了利用自动机构结构的好处进行了模块化的政策梯度架构来分解整体任务，并促进学习控制器的性能; （4）通过纳入高斯过程（GPS）来估计不确定的动态系统，我们使用指数控制屏障功能（ECBF）综合基于模型的保障措施来解决高阶相对度的问题。此外，我们利用LTL自动化和ECBF的性质来构建引导过程，以进一步提高勘探效率。最后，我们通过多个机器人环境展示了框架的有效性。我们展示了这种基于ECBF的模块化深RL算法在训练期间实现了近乎完美的成功率和保护安全性，并且在训练期间具有很高的概率信心。

translated by 谷歌翻译

Offline Evaluation of Reward-Optimizing Recommender Systems: The Case of Simulation

Imad Aouali , Amine Benhalloum , Martin Bompaire , Benjamin Heymann , Olivier Jeunen , David Rohde , Otmane Sakhi , Flavian Vasile

分类：人工智能 | 机器学习

2022-09-18

在基于学术和行业的研究中，在线评估方法都被视为推荐系统等交互式应用程序的黄金标准。自然，这样做的原因是，我们可以直接测量依赖干预措施的实用程序指标，这是向用户显示的建议。然而，由于多种原因，在线评估方法是昂贵的，并且对于可靠的离线评估程序仍然存在明确的需求。在行业中，离线指标通常被用作一线评估，以生成有前途的候选模型来在线评估。在学术工作中，对在线系统的有限访问使离线指标是验证新方法的事实上的方法。存在两个类别的离线指标：基于代理的方法和反事实方法。头等舱通常与我们关心的在线指标相关，而后一类仅根据在现实世界中无法实现的假设提供理论保证。在这里，我们表明基于模拟的比较为离线指标提供了前进的方向，并认为它们是可取的评估手段。

translated by 谷歌翻译

R-WhONet: Recalibrated Wheel Odometry Neural Network for Vehicular Positioning using Transfer Learning

Uche Onyekpe , Alicja Szkolnik , Vasile Palade , Stratis Kanarachos , Michael E. Fitzpatrick

分类：机器人

2022-09-13

本文提出了一种转移学习方法，以重新校准我们先前开发的车轮探针神经网络（WHONET），以在全球导航卫星系统（GNSS）不可用的环境中进行车辆定位。已显示WHONET具有学习车轮速度测量中不确定性的能力，以校正和准确的车辆定位。这些不确定性可能表现为轮胎压力从泥泞和不平坦的地形或车轮滑动中的驾驶变化。但是，关注数据驱动方法（例如WHONET模型）的共同原因通常是无法将模型推广到新车。在机器学习模型在特定领域进行培训但部署在另一个领域的情况下，该模型的性能降低了。在现实生活中，从变化到车辆的动力学到传感器噪声的新模式分布，有几个因素对这种降解有影响，偏见会使测试传感器数据的数据因训练数据而异。因此，挑战是探索允许训练有素的机器学习模型自发适应新车辆域的技术。因此，我们提出了重新校准的轮循环神经网络（R-WHONET），该神经网络将WHONET模型从其源域（最初训练该模型的车辆和环境）适应到目标域（一种新车辆，在其上进行了训练）。训练有素的模型将被部署）。通过在几个GNSS中断场景上进行性能评估 - 短期复杂驾驶方案以及长期GNSS中断方案。我们证明，在源域中训练的模型并不能很好地推广到目标域中的新车辆。但是，我们表明，我们的新提议的框架将WHONET模型对目标域中的新车辆的概括提高了32％。

translated by 谷歌翻译

A Scalable Probabilistic Model for Reward Optimizing Slate Recommendation

Imad Aouali , Achraf Ait Sidi Hammou , Sergey Ivanov , Otmane Sakhi , David Rohde , Flavian Vasile

分类：机器学习 | (统计)机器学习

2022-08-10

我们介绍了概率等级和奖励模型（PRR），这是一个可扩展的概率模型，用于个性化的Slate建议。我们的模型允许在以下无处不在的推荐系统方案中对用户兴趣的最新估计：向用户显示了k个建议的板岩，用户最多可以选择这些K项目中的一个。推荐系统的目标是找到用户最感兴趣的K项目，以最大程度地提高用户与Slate交互的可能性。我们的贡献是表明，我们可以通过结合奖励（无论是否单击板岩，以及等级）而更有效地学习建议成功的可能性。我们的方法比仅使用奖励和仅使用等级的用户偏好方法的盗销方法更有效地学习。它还提供了与独立的逆点分数方法相似或更好的估计性能，并且更可扩展。我们的方法是在大量数据集中的速度和准确性方面的最高速度，最多100万个项目。最后，我们的方法允许快速交付由最大内部产品搜索（MIPS）提供动力的建议，使其适用于极低的延迟域，例如计算广告。

translated by 谷歌翻译

An Open-Domain QA System for e-Governance

Radu Ion , Andrei-Marius Avram , Vasile Păiş , Maria Mitrofan , Verginica Barbu Mititelu , Elena Irimia , Valentin Badea

分类：自然语言处理

2022-06-16

该论文为罗马尼亚语提供了一个开放域的答案系统，回答了Covid-19相关问题。QA系统管道涉及自动问题处理，自动查询生成，Web搜索前10个最相关的文档，并使用用于提取质量质量质量质量质量质量质量的BERT模型回答提取，并在我们手动创建的COVID-19数据集上进行了培训。该论文将介绍质量检查系统及其与罗马尼亚语言技术的集成，COVID-19数据集以及对质量检查性能的不同评估。

translated by 谷歌翻译

Grasp Pre-shape Selection by Synthetic Training: Eye-in-hand Shared Control on the Hannes Prosthesis

Federico Vasile , Elisa Maiettini , Giulia Pasquale , Astrid Florio , Nicolò Boccardo , Lorenzo Natale

分类：机器人 | 计算机视觉

2022-03-18

我们考虑对物体抓住的任务，可以用多种抓握类型的假肢手抓住。在这种情况下，传达预期的抓取类型通常需要高的用户认知负载，可以减少采用共享自主框架。在其中，所谓的眼睛内部系统会根据手腕上的相机的视觉输入自动控制掌握前的手工整形。在本文中，我们提出了一种基于目光的学习方法，用于从RGB序列中进行手部形状分类。与以前的工作不同，我们设计了该系统，以支持以不同的掌握类型掌握每个被认为的对象部分的可能性。为了克服缺乏此类数据并减少对训练系统繁琐的数据收集会话的需求，我们设计了一条呈现手动轨迹合成视觉序列的管道。我们开发了一种传感器的设置，以获取真正的人类握把序列以进行基准测试，并表明，与实际数据相比，使用合成数据集训练的实用案例相比，与对真实数据培训的模型相比，使用合成数据集训练的模型获得了更好的概括性能。我们最终将模型整合到Hannes假肢手中，并显示其实际有效性。我们使代码和数据集公开可用，以复制提出的结果。

translated by 谷歌翻译

Fast solver for J2-perturbed Lambert problem using deep neural network

Bin Yang , Shuang Li , Jinglang Feng , Massimiliano Vasile

分类：人工智能 | 机器学习

2022-01-09

本文介绍了J2扰动兰伯特问题的新颖和快速求解器。求解器由智能初始猜测发生器组成，与差分校正过程组合。智能初始猜测生成器是一个深度神经网络，受过训练，以校正来自未受干扰的Lambert问题的解决方案的初始速度矢量。差分校正模块采用初始猜测并使用正向拍摄过程来进一步更新初始速度并准确地满足终端条件。分析了八种样本形式，并比较了解最佳形式，以培训在J2扰动的兰伯特问题上的神经网络。在代表性测试案例上证明了这种新方法的准确性和性能：Jupiter系统中的多转J2扰动兰伯特问题的解决方案。我们将对所提出的方法对经典标准拍摄方法和基于同型扰动Lambert算法的性能进行比较。结果表明，为了相当的精度水平，所提出的方法明显比其他两个更快。

translated by 谷歌翻译

Res2NetFuse: A Fusion Method for Infrared and Visible Images

Xu Song , Xiao-Jun Wu , Hui Li , Jun Sun , Vasile Palade

分类：计算机视觉 | 人工智能

2021-12-29

本文提出了一种用于红外和可见图像的新型Res2net的融合框架。所提出的融合模型分别有三个部分：分别是编码器，融合层和解码器。基于RES2Net的编码器用于提取源图像的多尺度特征，该文件引入了用于培训仅使用单个图像的Res2net的编码器的新培训策略。然后，基于注意模型开发了一种新的融合策略。最后，解码器重建融合图像。还详细分析了所提出的方法。实验表明，我们的方法通过与现有方法进行比较，实现了客观和主观评估中的最先进的融合性能。

translated by 谷歌翻译